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(57) Abstract 



The invention relates to a method for storing search parameters of an 
image sequence and accessing an image that is a true subset of the image 
sequence. Said image sequence contains audio information. In order to be able 
to selectively search within an image sequence containing audio information, 
search characteristics are determined from the audio information by means of 
voice recognition. A concept which is to be searched can be inputted by 
means of spoken language. Search characteristics are either single words of 
a predetermined language or phonemes/phoneme combinations. The inventive 
method thus enables image sequences to be automatically indexed with their 
audio information. 

(57) Zusammenfassung 

Verfahren zum Abspetchem von Suchmerkmalen einer Bildsequenz, die 
Toninformation umfaBt, und Zugriff auf eine Bildfolge, die eine echte Teilmenge 
der Bildsequenz ist. Urn in einer Bildsequenz, die Toninformation umfaBt, 
gezielt suchen zu kemnen, werden Suchmerkmale aus der Toninformation 
mittels eines Spracherkenners ermittelt. Auch die Eingabe eines zu suchenden 
Be'griffs kann Uber gesprochene Sprache erfolgen. Suchmerkmale sind altemativ 
einzelne Worte einer vorgegeben Sprache oder Phoneme/Phonemkombinationen. 
Mit diesem Verfahren konnen Bildsequenzen anhand ihrer Toninformation 
automatisch indiziert werden. 
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Beschreibung 

Verfahren zum Abspeichern von Suchmerkmalen einer Bildsequenz 
und Zugriff auf eine Bildfolge in der Bildsequenz 

5 

Die Erfindung betrifft ein Verfahren zum Abspeichern von 
Suchmerkmalen einer Bildsequenz, die Toninf ormation umfaSt, 
und einen Zugriff auf eine Bildfolge innerhalb der 
Bildsequenz anhand der Suchmerkmale . 

10 

Eine Bildsequenz ist eine Reihe zusammenhangender Bilder mit 
entsprechender Toninf ormation . Eine Bildfolge bezeichnet eine 
echte Teilmenge der Bildsequenz. Voraebbare Tnfnrm^in n i st 
eine in den Suchmerkmalen zu suchende Information. 

15 

Vielfaltige audiovisuelle Information (Bildsequenzen) wird 
heute in digitalisierter Form an verschiedenen Orten 
gespeichert. Urn diese audiovisuelle Information zu nutzen, 
ist es notig, die interessierenden Daten zunachst einmal 
20 aufzufinden. 

Ein Spracherkennungssystem ist aus [1] bekannt . 

Die MPEG-Standards zur Bildkompression sind dem Fachmann 
25 hinlanglich bekannt . 

Die Aufgabe. der Erfindung besteht darin, aus einer 
Bildsequenz Suchmerkmale zu bestimmen und abzuspeichern und 
somit eine Zugriff auf interessierende Daten zu 
30 gewahrleisten. 

Diese Aufgabe wird gemaS den Merkmalen der Patentanspriiche 1 
und 9 gelost. 

35 Es wird ein Verfahren zum Abspeichern von Suchmerkmalen einer 
Bildsequenz, die Toninf ormation umf aBt , dargestellt, bei dem 
die Suchmerkmale aus der Toninf ormation der Bildsequenz 
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ermittelt und abgespeichert werden. Weiterhin gibt eine 
vorgegebene Information an, welches Suchmerkmal in der 
Bildsequenz gefunden werden soil. Wird eine Ubereinstimrnung 
zwischen der vorgegebenen Information und den Suchmerkmalen 
der Bildsequenz ermittelt, so wird zu der Bildfolge, die mit 
dem gefundenen Suchmerkmal verkniipft ist, gesprungen. 
Ansonsten, wird also keine Ubereinstimrnung zwischen der 
vorgegebenen Information und den Suchmerkmalen ermittelt, 
wird dem Benutzer eine entsprechende Riickmeldung angezeigt. 

Befinden sich innerhalb der Bildsequenz mehrere Suchmerkmale, 
die auf die vorgegebene Information passen, so konnen die 
jeweilig verknupften Bildfolgen einzeln der Reihe nach 
angesprungen werden oder eine Auswahl mit zusatzlichen zu den 
jeweiligen Bildfolgen gehorenden Suchmerkmalen in einer 
Ubersicht ausgegeben werden. Hierzu sind verschiedene 
Moglichkeiten denkbar, die allgemein aus auf Datenbanken 
anwendbaren Suchtechniken bekannt sind. 

Daraus ergibt sich der Vorteil einer automatisch fur die 
jeweilige Bildsequenz result ierenden Menge von Suchmerkmalen, 
die einfach zu ermitteln sind und mit der Bildsequenz oder 
getrennt von der Bildsequenz in einer Datenbank abgespeichert 
werden konnen. 

Eine Weiterbildung der Erfindung besteht darin, die 
Toninformation mittels eines Spracherkennungssystems 
auszuwerten im Hinblick auf vorgegebene Wortarten oder 
vorgegebene Worte . So kann eine vorgegebene Wortart alle 
Substantive umfassen, die mit der Bildsequenz oder getrennt 
von der Bildsequenz als Suchmerkmale abgespeichert werden. 

Eine andere Weiterbildung besteht darin, die vorgegebene 
Information mittels gesprochener Sprache einzugeben. Hierzu 
kann vorteilhaft der Spracherkenner , der fur die Erkennung 
der Suchmerkmale eingesetzt worden ist, verwendet werden. Die 
Eingabe von naturlich gesprochener Sprache hat u.a. den 
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Vorteil, daS ohne eine zur Verfiigung stehende Tastatur oder 
andere Instrumentierung vollig ohne Benutzung z.B. der Hande 
die vorgegebene Information eingegeben werden kann. 
Beispielsweise beim Fiihren eines Kraf t f ahrzeugs ist eine 
Eingabe, bei der der Blick nicht vom Verkehrsgeschehen 
abgewandt werden muS, von Vorteil. 

Auch ist es eine mogliche Weiterbildung , aus den mittels des 
Spracherkenners erkannten Suchmerkmalen eine Liste 
anzubieten, die der Benutzer sowohl zur einfachen Auswahl 
eines Suchmerkmals , das er nicht aktiv kennen muS, benutzen 
kann. Ferner ist es moglich, eine Liste von beispielsweise 
Substantiven sortiert nach der Haufigkeit anzubieten, so daS 
der Benutzer z.B. die aktuellsten Bildfolgen iiber die 
Suchmerkmale adressieren kann, wenn die Bildsequenz z.B. 
Nachrichtensendungen umf a&t , 

Eine zusatzliche Weiterbildung besteht darin, als 
Suchmerkmale Phoneme und/oder Phonemkombinat ion abzuspeichern 
0 und somit den letzten Schritt der Spracherkennung , das 

Zuordnen zu real existierenden Worten, einzusparen. Dadurch 
ergibt sich ein flexibler Einsatz, da nicht fur jede Sprache 
ein eigenes Lexikon mit den jeweiligen Umsetzungen in Phoneme 
und/oder Phonemkombinat ionen bereitstehen muS. 

5 

Ein anderes Verfahren ermoglicht direkt die Suche nach einer 
vorgegebenen Information innerhalb einer Toninf ormation 
umfassenden Bildsequenz, wobei die vorgegebene Information in 
der Bildsequenz gesucht wird und eine Bildfolge ab dem Bild 
0 angezeigt wird, zu dessen Toninf ormation die vorgegebene 
Information zugeordnet werden kann. Dadurch konnen 
vorteilhaft, ohne Aufwand fur Abspeichern und Verwalten von 
Suchmerkmalen, einzelne, vorzugsweise kurze, Bildsequenzen 
nach vorgegebener Information abgesucht werden. 
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Eine Weiterbildung besteht darin, mittels eines 
Spracherkennungssystems vorgebbare Worte aus der 
Toninf ormation zu erkennen. 

Die Eingabe der vorgegebenen Information kann durch naturlich 
gesprochene Sprache erfolgen, die von dem 
Spracherkennungssystem erkannt wird. 

Eine andere Weiterbildung ist die Suche nach einer 
Ubereinstimmung zwischen der vorgegebenen Information und der 
Toninf ormation auf Basis von Phonemen und/oder 
Phonemkombinationen. Dabei ist es ein Vorte.il, daS der letzte 
Schritt der Spracherkennung, die Zuordnung einer 
Phonemkombination zu einem Wort, eingespart wird, wobei damit 
keine sprachspezif ischen Worterbvicher fur diese Zuordnung im 
Spracherkenner vorhanden sein mussen. Es konnen auf diese 
Weise Laute und Lautkombinationen innerhalb der zu der 
Bildsequenz assoziierten Toninf ormation gefunden werden. 

Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspruchen . 

Anhand der folgenden Figuren werden Ausf uhrungsbeispiele der 
Erfindung naher dargestellt. 

Es zeigen 

Fig.l ein Blockdiagramm, das Schritte zur Durchfuhrung 

eines Verfahrens zum Abspeichern einer Bildsequenz 
und Zugriff auf diese Bildsequenz enthalt, 

Fig. 2 eine Skizze, die eine Bildsequenz zeigt, die 
Bilddaten und Toninf ormation umfaSt, 

Fig. 3 eine Skizze, die eine Moglichkeit zum Abspeichern von 
Suchmerkmalen zeigt, 

Fig. 4 eine Skizze, die eine Aufteilung einer Liste aus 
Suchmerkmalen darstellt, 

Fig. 5 eine Skizze, die das Zusammenspiel zwischen 

Toninf ormation, Spracherkenner, einem Mikrofon fur 



WO 99/05681 



PCT/DE98/01985 



5 

zusatzliche Spracheingabe und den Suchmerkmalen 
symbolisch veranschaulicht . 



In Fig, I ist ein Blockdiagramm dargestellt, das Schritte zur 
5 Durchfiihrung eines Verfahrens zum Abspeichern einer 

Bildsequenz, die Toninf ormation umfaSt, und einen Zugriff auf 
diese Bildsequenz enthalt. 

Dazu werden in einem Schritt 101 Suchmerkmale aus der 
10 Toninf ormation ermittelt. Dies geschieht mittels eines 

Spracherkenners, der Worte oder Laute aus der Toninf ormation 
erkennt und diese in ihrer Gesamtheit oder nach vorgebbaren 
Merkmalen gefiltert (siehe unten) als Suchmerkmale 
abspeichert . 

15 

Die Suchmerkmale werden in einem Schritt 102 zusammen mit der 
Bildsequenz oder in einer getrennten Datenbank abgespeichert . 
Mit Datenbank ist hier eine allgemeine Ansammlung von Daten 
gemeint, die optional mit geeigneten Zugriff smechanismen 
20 versehen ist. Solche Datenbanken sind z.B. als funktionales 
Programmierinterf ace (z.B. als "application programming 
interface" API ) oder als fertige, eigenstandig auf einem 
Rechner laufende Programme dem Fachmann. hinlanglich bekannt . 

25 Uber den Zugriff 103 werden die Suchmerkmale mit' einer 
vorgegebenen Information verglichen und, falls eine 
Ubereinstimmung gefunden wird, zu der Bildfolge, die durch 
das ubereinstimmende Suchmerkmal referenziert (mit einem 
Verweis wird auf die Bildfolge gezeigt) wird, gesprungen 

30 werden kann. Wird keine Ubereinstimmung zwischen der 

vorgegebenen Information und den Suchmerkmalen gefunden, so 
wird vorzugsweise dies dem Benutzer angezeigt. 



In Fig ,2 ist uber den Verlauf einer Zeitachse t eine 
35 Bildsequenz BS, die Bilddaten BD und Toninf ormation TI 

umfaSt, dargestellt:. Innerhalb der Bildsequenz BS ist eine 
Bildfolge BF als Teil der Bildsequenz BS gezeigt. In Fig. 2 
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wird deutlich, da£ die Bilddaten BD und die Toninf ormation TI 
eine zeitliche Entsprechung aufweisen, also jedem 
Tonausschnitt ein eindeutiger Bildausschnitt und umgekehrt 
zugeordnet werden kann. 

Fig, 3 zeigt die Bildsequenz BS, die mindestens eine 
Kombination aus einem Header H und Bilddaten BD (siehe 
beispielsweise die entsprechende Festlegung im MPEG-Standard: 
GOP = Group of Pictures) umfaSt, der Suchmerkmale M 
beispielhaft vorangestellt worden sind. Ebenso konnen die 
Suchmerkmale M der Bildsequenz BS angehangt oder innerhalb 
der Bildsequenz BS abgespeichert werden. Alternativ dazu ist 
es moglich, die Suchmerkmale M in einer externen Datenbank 
EDB abzuspeichern und so Suchmerkmale mehrerer Bildsequenzen 
BS in einer Datenbank zu sammeln. In Fig. 3 sind Verweise PTR 
skizziert, die zeigen, daS zu jedem Suchmerkmal auch ein 
solcher Verweis gehort , der auf ein Bild innerhalb der 
Bildsequenz zeigt und somit eine Bildfolge in der Bildsequenz 
deref erenziert (d.h. die Bildfolge ist durch den Verweis PTR 
adressierbar) . 

Eine Organisation einer Liste von Suchmerkmalen und deren 
Beziehung zu den Bilddaten BD ist in Fig* 4 dargestellt. Es 
gilt wieder der vertikale Verlauf einer Zeitachse t von oben 
nach unten. Die Suchmerkmale M sind in Form einer Liste der 
Bildsequenz BS # die den Header H und die Bilddaten BD 
enthalt, vorangestellt. Die Liste enthalt mehrere 
Suchmerkmale SMI und SM2 . Jedes Suchmerkmal umfaSt jeweils 
eine beschreibende Komponente INF01 und INF02 und jeweils 
einen Verweis (Zeiger, engl . : pointer) PTR1 und PTR2 auf ein 
Bild innerhalb der Bilddaten BD. 

Eine zentrale Komponente in Fig. 5 ist der Spracherkenner SE. 
Dort wird die Toninf ormation TI bearbeitet . 

Eine Moglichkeit ist die Erkennung der in der Toninf ormation 
enthaltenen Sprache mit den die eine jeweilige Sprache 
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kennzeichnenden Worte. Diese Worte stellen Suchmerkmale SMi 
( i = l , 2 , 3 , . . , n) dar, die in die Liste mit Suchmerkmalen LSM 
eingetragen werden. 

5 Aus der Toninf ormat ion erkannte Worte konnen der Haufigkeit 
nach sortiert dem Benutzer dargestellt werden, so daS dieser 
eine Auswahlmoglichkeit fur die vorgebbare Information hat. 

Auf Wortebene konnen geeignete Filter nur bestimmte 
10 Wortarten, z.B. Substantive, zum Abspeichern oder nur 
bestimmte vorgegebene Worte, die in einem 

anwendungsabhangigen Lexikon abgelegt werden, zulassen. Im 
zweiten Fall kann man gezielt die Toninf ormation nach 
Kategorien einstufen. Jede Kategorie umfaSt ein bestimmtes 

15 anwendungsabhangiges Lexikon. Ein Beispiel fur ein 

anwendungsabhangiges Lexikon ist ein Sport lexikon mit Worten, 
die in dieser Themenklasse eine Rolle spielen. Die 
Toninf ormation einer Bildsequenz wird auf Ubereinstimmungen 
mit in diesem Sportlexikon vorhandenen Worten untersucht . 

20 Jede Ubereinstimmung fiihrt zu einem Suchmerkmal, also einer 
beschreibenden Komponente INFO und einem Verweis PTR auf das 
Bild, zu dem das jeweilige Wort aufgetreten ist. 

Auch ist es moglich, nicht die der Sprache eigenen Worte als 

2 5 Suchmerkmale SMi, sondern Laute, d.h. Phoneme bzw. 

Phonemkombinationen, abzuspeichern und somit von einer 
speziellen Sprache unabhangig zu sein. 

Bei der Suche nach einer Bildfolge wird die vorgegebene 

3 0 Information, nach der gesucht werden soil, eingegeben. Diese 

Eingabe kann geschehen auf Wortebene, z.B. mittels einer 
Tastatur oder in Form gesprochener Sprache iiber ein Mikrofon 
MIK. 

35 Es kann auch direkt iiber das Mikrofon MIK cder iiber eine 

andere Eingabeeinheit , z.B. eine Tastatur, die vorgegebenen 
Information eingegeben werden und ohne vorhandene 
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abgespeicherte Suchmerkmale SMi die zu der Bildszene 
gehorende Toninf ormation TI nach der vorgegebenen Information 
abgesucht werden (siehe Verkniipfung 501) . Dabei kann auf 
Wortebene einer jeweiligen Sprache oder auf Lautebene 
5 ( Phoneme /Phonemkombinationen) nach der vorgegebenen 

Information innerhalb der Toninf ormation TI gesucht werden. 
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Im Rahmen dieses Dokuments wurde folgende Verof f ent lichung 
zitiert : 

[1] Schukat-Talamazzini : Automatische Spracherkennung , 
Vieweg-Verlag, 1995 . 
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Patentansp riiche 

1. Verfahren zum Abspeichern von Suchmerkmalen einer 
Bildsequenz, die Toninf ormation umfaSt, und Zugriff auf 
eine Bildfolge, die eine echte Teilmenge der Bildsequenz 
ist , 

a) bei dem die Suchmerkmale aus der Toninf ormation 
ermittelt werden, 

b) bei dem die Suchmerkmale abgespeichert werden, 

c) bei dem die Suchmerkmale mit einer vorgegebenen 
Information verglichen werden und, 

falls eine ubereinst immendes Suchmerkmal gefunden 
wird, zu der Bildfolge, die mit dem ubereinstimmenden 
Suchmerkmal verknupft ist, gesprungen wird, 

Oder eine Ausgabe, daS keine Ubereinstimmung 
zwischen vorgegebener Information mit den 
Suchmerkmalen gefunden worden ist, dargestellt wird. 

2. Verfahren nach Anspruch 1, 

bei dem durch ein Spracherkennungssystem vorgebbare Worte 
aus der Toninf ormation ausgewertet, erkannt und 
abgespeichert werden . 

3. Verfahren nach Anspruch 2, 

bei dem die vorgebbaren Worte Substantive sind. 

4. Verfahren nach einem der Anspruche 1 bis 3, 

bei dem die Suchmerkmale gemeinsam mit der Bildsequenz 
abgespeichert werden . 

5. Verfahren nach einem der Anspruche 1 bis 4, 

bei dem die Suchmerkmale in einer von der Bildsequenz 
separaten Datenbank abgespeichert werden. 



35 6 



Verfahren nach einem der Anspruche 1 bis 5, 

bei dem die vorgegebene Information mittels gesprochener 

Sprache eingegeben wird. 
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10 



20 



Verfahren nach einem der Anspriiche 1 bis 6, 
bei dem zu der Bildsequenz eine Liste mit den haufigsten 
aus der Toninf ormation zu dieser Bildsequenz erkannten 
Worten angezeigt wird. 

Verfahren nach einem der Anspruche 1 bis 7, 
bei dem als Suchmerkmale Phoneme und/oder 
Phonemkombinat ionen abgespeichert werden. 



9 . Verfahren zur Suche nach einer Sprache umf assenden 
vorgegebenen Information in einer Bildsequenz, die 
Toninf ormation umfaSt, und Zugriff auf eine Bildfolge, 
die eine echte Teilmenge der Bildsequenz ist, 
15 a) bei dem die vorgegebene Information in der 

Toninf ormation der Bildsequenz gesucht wird, 
b) bei dem die Bildfolge ab einem Bild, dessen 

Toninf ormation die vorgegebene Information enthalt, 
angezeigt wird . 



10. Verfahren nach Anspruch 9, 

bei dem durch ein Spracherkennungssystem vorgebbare Worte 
aus der Toninf ormation erkannt werden . 

25 11. Verfahren nach Anspruch 9 oder 10 , 

bei dem die vorgegebene Information mittels gesprochener 
Sprache eingegeben wird und durch das 
Spracherkennungssystem erkannt wird. 



12. Verfahren nach einem der Anspruche 9 bis 11, 

bei dem Phoneme und/oder Phonemkombinationen der 
vorgegebenen Information mit Phonemen und/oder 
Phonemkombinationen aus der Toninf ormation verglichen 
werden . 
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